Análise Multivariada

Análise de Cluster

Dados

Os dados se referem a uma análise química de vinhos. São 178 amostras de diferentes vinhos italianos de 3 tipos de uvas usadas na fabricação dos vinhos, tal como Sauvignon Blanc, Cabernet ou Chardonnay. Foram analisadas 13 variáveis (V2 a V14), contendo as concentrações de diferentes compostos químicos na amostra.

As variáveis observadas para cada vinho são:

V2. Álcool, que é criado como um resultado direto do processo de fermentação e é também um indicador do conteúdo de álcool das uvas.
V3. Ácido málico, que é um acido primário em uvas, que podem influenciar o gosto dos vinhos.
V4. Teor de cinzas, que são um indicador de qualidade.
V5. Alcalinidade da cinza, uma propriedade química das cinzas.
V6. Magnésio, um mineral.
V7. Fenóis totais, uma classe de moléculas importantes para definir o sabor, cheiro, benefícios medicinais e diversidade do vinho. Os tipos de fenóis são classificados como flavonóides e não flavonoides.
V8. Flavonóides, um tipo de fenol no vinho tinto que possui um maior impacto no sabor do vinho.
V9. Fenóis não flavonóides, outro tipo de fenol.
V10. Proantocianinas, tipo de flavonóide das semestes das uvas.
V11. Intensidade da cor.
V12. Tonalidade do vinho.
V13. OD280/OD315 de vinhos diluídos
V14. Teor de prolina, que é alterada pela variedade de uvas.

Análise exploratória

Pelo boxplot dos dados é possível perceber que as variáveis possuem escalas bem diferentes.

Já o boxplots com os dados padronizados é possível perceber que o problema de escala foi corrigido.

V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14
Min. :11.03 Min. :0.740 Min. :1.360 Min. :10.60 Min. : 70.00 Min. :0.980 Min. :0.340 Min. :0.1300 Min. :0.410 Min. : 1.280 Min. :0.4800 Min. :1.270 Min. : 278.0
1st Qu.:12.36 1st Qu.:1.603 1st Qu.:2.210 1st Qu.:17.20 1st Qu.: 88.00 1st Qu.:1.742 1st Qu.:1.205 1st Qu.:0.2700 1st Qu.:1.250 1st Qu.: 3.220 1st Qu.:0.7825 1st Qu.:1.938 1st Qu.: 500.5
Median :13.05 Median :1.865 Median :2.360 Median :19.50 Median : 98.00 Median :2.355 Median :2.135 Median :0.3400 Median :1.555 Median : 4.690 Median :0.9650 Median :2.780 Median : 673.5
Mean :13.00 Mean :2.336 Mean :2.367 Mean :19.49 Mean : 99.74 Mean :2.295 Mean :2.029 Mean :0.3619 Mean :1.591 Mean : 5.058 Mean :0.9574 Mean :2.612 Mean : 746.9
3rd Qu.:13.68 3rd Qu.:3.083 3rd Qu.:2.558 3rd Qu.:21.50 3rd Qu.:107.00 3rd Qu.:2.800 3rd Qu.:2.875 3rd Qu.:0.4375 3rd Qu.:1.950 3rd Qu.: 6.200 3rd Qu.:1.1200 3rd Qu.:3.170 3rd Qu.: 985.0
Max. :14.83 Max. :5.800 Max. :3.230 Max. :30.00 Max. :162.00 Max. :3.880 Max. :5.080 Max. :0.6600 Max. :3.580 Max. :13.000 Max. :1.7100 Max. :4.000 Max. :1680.0

Pelo summary dos dados é possível perceber a diferença numérica das escalas entre as variáveis.

Matriz de variância e covariância
V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14
V2 0.66 0.09 0.05 -0.84 3.14 0.15 0.19 -0.02 0.06 1.03 -0.01 0.04 164.57
V3 0.09 1.25 0.05 1.08 -0.87 -0.23 -0.46 0.04 -0.14 0.64 -0.14 -0.29 -67.55
V4 0.05 0.05 0.08 0.41 1.12 0.02 0.03 0.01 0.00 0.16 0.00 0.00 19.32
V5 -0.84 1.08 0.41 11.15 -3.97 -0.67 -1.17 0.15 -0.38 0.15 -0.21 -0.66 -463.36
V6 3.14 -0.87 1.12 -3.97 203.99 1.92 2.79 -0.46 1.93 6.62 0.18 0.67 1769.16
V7 0.15 -0.23 0.02 -0.67 1.92 0.39 0.54 -0.04 0.22 -0.08 0.06 0.31 98.17
V8 0.19 -0.46 0.03 -1.17 2.79 0.54 1.00 -0.07 0.37 -0.40 0.12 0.56 155.45
V9 -0.02 0.04 0.01 0.15 -0.46 -0.04 -0.07 0.02 -0.03 0.04 -0.01 -0.04 -12.20
V10 0.06 -0.14 0.00 -0.38 1.93 0.22 0.37 -0.03 0.33 -0.03 0.04 0.21 59.55
V11 1.03 0.64 0.16 0.15 6.62 -0.08 -0.40 0.04 -0.03 5.37 -0.28 -0.71 230.77
V12 -0.01 -0.14 0.00 -0.21 0.18 0.06 0.12 -0.01 0.04 -0.28 0.05 0.09 17.00
V13 0.04 -0.29 0.00 -0.66 0.67 0.31 0.56 -0.04 0.21 -0.71 0.09 0.50 69.93
V14 164.57 -67.55 19.32 -463.36 1769.16 98.17 155.45 -12.20 59.55 230.77 17.00 69.93 99166.72

Na matriz de covariância é possível ver o impacto que tem as variáveis com maior escala na diagonal principal (variância).

Matriz de correlação
V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14
V2 1.00 0.09 0.21 -0.31 0.27 0.29 0.24 -0.16 0.14 0.55 -0.07 0.07 0.64
V3 0.09 1.00 0.16 0.29 -0.05 -0.34 -0.41 0.29 -0.22 0.25 -0.56 -0.37 -0.19
V4 0.21 0.16 1.00 0.44 0.29 0.13 0.12 0.19 0.01 0.26 -0.07 0.00 0.22
V5 -0.31 0.29 0.44 1.00 -0.08 -0.32 -0.35 0.36 -0.20 0.02 -0.27 -0.28 -0.44
V6 0.27 -0.05 0.29 -0.08 1.00 0.21 0.20 -0.26 0.24 0.20 0.06 0.07 0.39
V7 0.29 -0.34 0.13 -0.32 0.21 1.00 0.86 -0.45 0.61 -0.06 0.43 0.70 0.50
V8 0.24 -0.41 0.12 -0.35 0.20 0.86 1.00 -0.54 0.65 -0.17 0.54 0.79 0.49
V9 -0.16 0.29 0.19 0.36 -0.26 -0.45 -0.54 1.00 -0.37 0.14 -0.26 -0.50 -0.31
V10 0.14 -0.22 0.01 -0.20 0.24 0.61 0.65 -0.37 1.00 -0.03 0.30 0.52 0.33
V11 0.55 0.25 0.26 0.02 0.20 -0.06 -0.17 0.14 -0.03 1.00 -0.52 -0.43 0.32
V12 -0.07 -0.56 -0.07 -0.27 0.06 0.43 0.54 -0.26 0.30 -0.52 1.00 0.57 0.24
V13 0.07 -0.37 0.00 -0.28 0.07 0.70 0.79 -0.50 0.52 -0.43 0.57 1.00 0.31
V14 0.64 -0.19 0.22 -0.44 0.39 0.50 0.49 -0.31 0.33 0.32 0.24 0.31 1.00

Matriz de distância euclidiana

Com os dados originais

Dados padronizados

Distância de Manhattan

Distância de Minkowski

Algoritmos de Agrupamento

Os algoritmos de agrupamentos que serão abordados serão o método hierárquico, e os métodos não hierárquicos k-médias (k-means) e c-médias (c-means).

  1. Hierárquico
  2. k-means
  3. c-means
  4. PAM
  5. CLARA

Método Hierárquico

Dendrograma

Pela análise dos dendrogramas, o melhor número de clusters parece ser 3, pois é com 3 ramificações que a altura diminui acentuadamente.

Fazendo uma comparação da clusterização com a variável do tipo de uva, em 14 observações o tipo da uva foi diferente do cluster.

Pelo método hierárquico é possível perceber que alguns itens se misturam com itens de outros clusters. Sendo notável, por exemplo, o 51 que foi classificado como do cluster 2, porém está maios próximo do centro do cluster 1.

Método K-means

Número de clusters

Pela análise dos gráficos percebe-se que o número ótimo de cluster é 3 nos 3 métodos.

Foram necessárias 2 iterações. Os 3 agrupamentos ficaram com os seguintes tamanhos, respectivamente, 51, 62, 65.

Pela visualização dos clusters é possível notar que nenhum elemento “entra” na região de outro cluster.

Fazendo uma comparação da clusterização com a variável do tipo de uva, em 6 observações o tipo da uva foi diferente do cluster.

Método C-means

Número de clusters

Pela análise dos gráficos percebe-se que o número ótimo de cluster é 2 nos 3 métodos.

Foram necessárias 23 iterações.
Pela visualização dos clusters é possível notar que nenhum elemento “entra” na região de outro cluster.

Para o C-means é complicado comparar com o tipod e uva pois são 3 tipos de uvas e no C-means foram feitos 2 agrupamentos.

PAM

Número de clusters

Pela análise dos gráficos percebe-se que o número ótimo de cluster é 3 usando os 3 métodos.

 [1] "medoids"    "id.med"     "clustering" "objective"  "isolation" 
 [6] "clusinfo"   "silinfo"    "diss"       "call"       "data"      
             V2         V3          V4         V5          V6         V7
[1,]  0.5904981 -0.4711544  0.15849862  0.3009543  0.01809398  0.6469393
[2,] -0.9246039 -0.5427655 -0.89856839 -0.1482061 -1.38222271 -1.0307762
[3,]  0.3934117  0.8088930  0.04914686  0.6003946 -0.54203270 -0.5833854
                V8          V9         V10         V11        V12        V13
[1,]  0.9518166597 -0.81841060  0.47016154  0.01807806  0.3611585  1.2089101
[2,]  0.0007311716  0.06545479  0.06831575 -0.71522236  0.1861586  0.7863692
[3,] -1.2707199546  0.70826598 -0.59560339  1.45017064 -1.7825902 -1.3967588
            V14
[1,]  0.5497067
[2,] -0.7522631
[3,] -0.3076880

Pela análise do gráfico é possível observar que essa clusterização não ficou tão boa, pois há elementos classificados como do cluster 1 dentro do cluster 2 e vice-versa.

Fazendo uma comparação da clusterização com a variável do tipo de uva, em 16 observações o tipo da uva foi diferente do cluster.

CLARA

Número de clusters

O número ótimo de clusters para o método CLARA também foi 3.

             V2         V3          V4         V5          V6         V7
[1,]  0.5904981 -0.4711544  0.15849862  0.3009543  0.01809398  0.6469393
[2,] -0.9246039 -0.5427655 -0.89856839 -0.1482061 -1.38222271 -1.0307762
[3,]  0.3934117  0.8088930  0.04914686  0.6003946 -0.54203270 -0.5833854
                V8          V9         V10         V11        V12        V13
[1,]  0.9518166597 -0.81841060  0.47016154  0.01807806  0.3611585  1.2089101
[2,]  0.0007311716  0.06545479  0.06831575 -0.71522236  0.1861586  0.7863692
[3,] -1.2707199546  0.70826598 -0.59560339  1.45017064 -1.7825902 -1.3967588
            V14
[1,]  0.5497067
[2,] -0.7522631
[3,] -0.3076880

Pela análise do gráfico da clusterização usando o algoritmo CLARA é posível perceber o mesmo problema que acontece com o algoritmo PAM. Há pontos classificados como de um cluster na região do outro cluster.

Fazendo uma comparação da clusterização com a variável do tipo de uva, em 16 observações o tipo da uva foi diferente do cluster.

Conclusão

Pela análise dos resultados visuais dos algoritmos de clusterizações, o método k-means foi o que os clusters ficaram melhor divididos, sem um “invadindo” o outro. Além disso, considerando a variável do tipo de uva foi o método em que os clusters mais se aproximaram do tipo de uva.